Sentiment Analysis এবং Text Classification

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Natural Language Processing (NLP)

223

Sentiment Analysis এবং Text Classification হল Natural Language Processing (NLP) এর দুটি গুরুত্বপূর্ণ কাজ, যা ডেটার মধ্যে ভাষাগত তথ্য বিশ্লেষণ করতে ব্যবহৃত হয়। এগুলি মেশিন লার্নিং এবং গভীর শিক্ষা (Deep Learning) অ্যালগরিদমের মাধ্যমে প্রক্রিয়া করা হয় এবং প্রায়শই সোশ্যাল মিডিয়া, গ্রাহক সেবা, এবং অন্যান্য পাঠ্যভিত্তিক ডেটা বিশ্লেষণে ব্যবহৃত হয়।

১. Sentiment Analysis

Sentiment Analysis হল একটি ধরনের Text Classification যা ডেটার অনুভূতি বা মতামত বিশ্লেষণ করে। এটি বিশেষভাবে positive, negative, এবং neutral অনুভূতি চিহ্নিত করতে ব্যবহৃত হয়।

Sentiment Analysis সাধারণত সোশ্যাল মিডিয়া, রিভিউ, ফোরাম পোস্ট, গ্রাহক প্রতিক্রিয়া এবং সংবাদ বিশ্লেষণে ব্যবহৃত হয়, যেখানে বিভিন্ন মতামত বা অনুভূতি প্রকাশ করা হয়।

কিভাবে কাজ করে:

Text Preprocessing: টেক্সট ডেটাকে প্রক্রিয়া করা হয়, যেমন স্টপওয়ার্ড রিমুভাল, টোকেনাইজেশন, এবং শব্দের মূলে নিয়ে আসা (stemming)।
Feature Extraction: টেক্সট থেকে বৈশিষ্ট্য বের করা হয়, যেমন শব্দের উপস্থিতি বা TF-IDF (Term Frequency-Inverse Document Frequency) ভেক্টর।
Model Training: বৈশিষ্ট্যগুলো ব্যবহার করে একটি মডেল ট্রেইন করা হয় (যেমন, Naive Bayes, Logistic Regression, বা Deep Learning মডেল)।
Sentiment Prediction: টেস্ট ডেটার জন্য মডেল প্রেডিকশন করে, যেখানে প্রতিটি টেক্সটের জন্য একটি অনুভূতি (positive, negative, or neutral) নির্ধারণ করা হয়।

উদাহরণ:

গ্রাহক রিভিউ থেকে একটি অনুভূতি বিশ্লেষণ করা।

from textblob import TextBlob

# একটি উদাহরণ টেক্সট
text = "I love this product! It's amazing."

# TextBlob ব্যবহার করে অনুভূতি বিশ্লেষণ
blob = TextBlob(text)
print(blob.sentiment)  # Sentiment পোলারিটি এবং সাবজেক্টিভিটি দেখাবে

Polarity: অনুভূতির তীব্রতা (যেমন, +1 হল খুব পজিটিভ, -1 হল খুব নেগেটিভ)।
Subjectivity: কতটা ব্যক্তিগত বা নির্দিষ্ট অভ্যন্তরীণ অনুভূতি।

২. Text Classification

Text Classification হল একটি প্রক্রিয়া যেখানে একটি নির্দিষ্ট পাঠ্য ডেটাকে বিভিন্ন শ্রেণিতে ভাগ করা হয়। এটি সাধারণত বিভিন্ন ধরনের পাঠ্য ডেটার মধ্যে লেবেল (label) নির্ধারণের জন্য ব্যবহৃত হয়।

Text Classification ব্যবহার করা হয় বিভিন্ন সমস্যার জন্য:

Spam Detection: ইমেইল স্প্যাম শনাক্তকরণ।
Topic Classification: ডকুমেন্ট বা নিউজ আর্টিকেল শ্রেণীবিভাগ (যেমন, ক্রীড়া, রাজনীতি, স্বাস্থ্য ইত্যাদি)।
Language Detection: টেক্সট থেকে ভাষা সনাক্তকরণ।

কিভাবে কাজ করে:

Text Preprocessing: টেক্সট ডেটাকে প্রক্রিয়া করা হয় যেমন স্টপওয়ার্ড রিমুভাল, টোকেনাইজেশন, এবং শব্দের মূলে নিয়ে আসা।
Feature Extraction: টেক্সটের বৈশিষ্ট্যগুলি বের করা হয়। TF-IDF বা Word Embeddings (Word2Vec, GloVe) এর মাধ্যমে বৈশিষ্ট্য তৈরি করা যায়।
Model Training: শ্রেণীভুক্ত ডেটার উপর একটি মডেল ট্রেইন করা হয়। সাধারণত Naive Bayes, Logistic Regression, Support Vector Machines (SVM), অথবা Deep Learning মডেল ব্যবহার করা হয়।
Prediction: প্রশিক্ষিত মডেলটি নতুন টেক্সটের জন্য প্রেডিকশন করে, এবং এটি কিভাবে শ্রেণীবদ্ধ করতে হবে তা নির্ধারণ করে।

উদাহরণ:

স্প্যাম ডিটেকশনের জন্য একটি টেক্সট ক্লাসিফিকেশন মডেল।

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

# উদাহরণ ডেটা
X = ["Free money now", "Get 10% discount on shopping", "Hello, how are you?", "Meeting at 3pm"]
y = ["spam", "spam", "ham", "ham"]  # spam অথবা ham (non-spam)

# TF-IDF ভেক্টরাইজার
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(X)

# মডেল ট্রেনিং
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)
model = MultinomialNB()
model.fit(X_train, y_train)

# প্রেডিকশন
y_pred = model.predict(X_test)
print(y_pred)